22 research outputs found

    Multilingual statistical text analysis, Zipf's law and Hungarian speech generation

    Get PDF
    The practical challenge of creating a Hungarian e-mail reader has initiated our work on statistical text analysis. The starting point was statistical analysis for automatic discrimination of the language of texts. Later it was extended to automatic re-generation of diacritic signs and more detailed language structure analysis. A parallel study of three different languages-Hungarian, German and English-using text corpora of a similar size gives a possibility for the exploration of both similarities and differences. Corpora of publicly available Internet sources were used. The corpus size was the same (approximately 20 Mbytes, 2.5-3.5 million word forms) for all languages. Besides traditional corpus coverage, word length and occurrence statistics, some new features about prosodic boundaries (sentence initial and final positions, preceding and following a comma) were also computed. Among others, it was found that the coverage of corpora by the most frequent words follows a parallel logarithmic rule for all languages in the 40-85% coverage range, known as Zipf's law in linguistics. The functions are much nearer for English and German than for Hungarian. Further conclusions are also drawn. The language detection and diacritic regeneration applications are discussed in detail with implications on Hungarian speech generation. Diverse further application domains, such as predictive text input, word hyphenation, language modelling in speech recognition, corpus-based speech synthesis, etc. are also foreseen

    A magyar nyelv betűstatisztikája beszédfeldolgozási szempontok figyelembevételével

    Get PDF
    A cikkben bemutatok egy új típusú betstatisztikát, amely a klasszikus 44 bets magyar ábécén alapuló eljárás továbbfejlesztése és egyesíti a bet- és a hangstatisztika elnyeit. A betstatisztika készítését olyan módon egészítem ki, hogy figyelembe veszem a beszédfeldolgozás igényeit is. A módszer megkülönböztet bet szinten olyan jelenségeket is, amelyek csak a hangstatisztika szintjén lehet kezelni. Az új módszert a Magyar Nemzeti Szövegtáron tesztelem, összehasonlítom a módszert a klasszikus betstatisztikával és a beszédfeldolgozásban használt hangstatisztikával

    Multimodális kommunikáció alkalmazása projektvezetésben

    Get PDF
    Napjaink intenzív kommunikációra alapuló információs társadalmában egyre nagyobb hangsúlyt kap a testreszabható, intelligens, rugalmas és alkalmazkodó információtovábbítás, mely nem kötődik csak egyetlen médiumhoz. Ez a törekvés érvényes a projektvezetés témakörében is, mely a projektkezelő rendszerek multimodalitásában mutatkozik meg. A Promóció projekt keretein belül megvalósított projektkezelő rendszer képes a felhasználók felé irányuló kommunikáció többalakú, többmódú megvalósítására. Ennek lényege, hogy a felhasználó és a rendszer közötti információáramlásra nincs egyetlen dedikált csatorna (technológia). Közvetlenül az adatközvetítés előtt döntés születik a felhasználandó médiumról, mely lehet például email (elektronikus levél), SMS (rövid szöveges üzenet) vagy akár hangüzenet (telefonos hívás és Text-To-Speech motor ötvözésével). A felhasználók felé továbbítandó üzenetek absztrakt formában keletkeznek. A kézbesítés módja a projektkezelő rendszerbe épített logika alapján dől el. Ha például a felhasználó nem válaszol 10 percen belül egy emailre, akkor mobiltelefonon keresztül próbáljuk elérni. Nappal a gyors reszponzivitás érdekében hanghívással, éjszaka viszont SMS-t használva. A projektkezelő rendszer multimodális megoldást alkalmaz a kérdőívek kitöltésére is. A létrehozott kérdőívek felhasználóhoz rendelhetők, opcionálisan definiálható, hogy mely projekt mely feladatában válnak aktuálissá. A kérdések megválaszolására a felhasználói felületen kívül lehetőség van telefonnal is, ez különösen hasznos offline (például terepen dolgozó) felhasználók esetén. A kérdőívek XML formátumra alakítását követően a Text-To-Speech motor beolvassa a kérdéseket, és a telefonbillentyűk segítségével megadhatók a válaszok, melyeket a rendszer eltárol

    Érzelmes beszéd gépi előállítása érzelem specifikus beszédadatbázisok felhasználásával

    Get PDF
    Tanulmányunkban megvizsgáljuk hogyan lehet érzelem specifikus beszédadatbázisok felhasználásával gépileg érzelmes beszédet előállítani. Kísérletünket magyar nyelvre végeztük, de a módszer nyelvfüggetlen. Felvettünk egy szemantikailag semleges tartalmú mondatot és 26 logatomot amelyek a mondat szintetizálásához szükséges diádokat és CVC triádokat tartalmazták. A hanganyagot egy profi színésznő mondta fel a hat alapérzelemnek megfelelően, illetve semleges érzelmi változatban. A logatomok felhasználásával 7 érzelemfüggő beszédelem adatbázist hoztunk létre. A 7 beszédelem adatbázist összepárosítva a természetes mondatokból kinyert 7 prozódiai kontúrral 49 szintetizált mondatot állítottunk elő. A logatomokban, illetve a természetes és a szintetizált mondatokban hallható érzelmeket 194 tesztalany értékelte ki. A tesztelők a logatomok 99%-ban, illetve az összes természetes mondatban szignifikánsan a véletlen találgatás szintje felett ismerték fel a színésznő által kifejezett érzelmeket. Az érzelmek azonosítási aránya egyes szintetizált mondatok esetén meghaladta a természetes mondatokét

    Magyar nyelvű WaveNet kísérletek

    Get PDF
    A gépi beszédkeltés legújabb iránya a mély neurális hálózat alapú közvetlen hullámforma generálás. A Google DeepMind kutatói által kidolgozott, ún. nyújtott konvolúció (dilated convolution) alapú WaveNet architektúra képes a hullámforma sajátosságait megtanulni és az így épített modell alapján új hullámformákat generálni. Ezzel az architektúrával magyar adatbázisokon végeztünk kísérleteket. Megvizsgáltuk a hálózat tanulási és generálási képességeit, majd különböző nyelvi jellemzőket felhasználva módosítottuk a tanulási és beszédhullámforma generálási folyamatot. A mondatok generálásához egyrészt természetes bemondásokból kinyert paraméterlistát használtunk, illetve szabály alapú beszédszintetizátor prozódiájával is végeztünk kísérleteket. A generált hangmintákat meghallgatásos teszt segítségével értékeltük, amelyben a WaveNet által generált hangmintákat hasonlítottuk össze természetes és szintetizált beszéddel

    Promptgenerátor : ügyfélszolgálati hangos üzenetek automatikus gépi előállítása egy adott bemondó hangjára

    Get PDF
    Az egyre szélesedő kommunikációs lehetőségekkel rohamosan nő a a telefonos ügyfélszolgálatok terhelése. A tájékoztatás automatizálásához egyre több hangos üzenetet kell elkészíteni, általában ugyanazzal a bemondóval. Ezt a felolvasó személy véges terhelhetősége korlátozza. A cikkben olyan gépi megoldás lehetőségéről számolunk be, amelyik leveszi a munka nagy részét a bemondó válláról, csak ellenőriznie kell a generált üzenet hangzását. A promptgenerátor olyan új beszédtechnológiai megoldás, amilyent még nem készítettek Magyarországon. Tervezése és fejlesztése mind számítógépes nyelvészeti, mind fonetikai és informatikai szempontból új megoldásokat eredményezett. A rendszer, optimális esetben olyan természetes hangminőséget szolgáltat, hogy a hallgató nem veszi észre, hogy gép beszél
    corecore